视觉问答:理论与实践 [V...

  • 书籍语言:简体中文
  • 下载次数:2926
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2024-10-04 12:10:02
  • 发布日期:2025-09-14
  • 连载状态:全集
  • 书籍作者:吴琦
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分,第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。

《视觉问答:理论与实践》既可以作为视觉问答领域关键模型的综述,也可作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。


作者简介

吴琦

阿德莱德大学副教授,澳大利亚机器学习研究中心视觉和语言实验室主任,2019-2021年获得ARC Discovery DECRA Fellowship。2019年被澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位,2011年获得硕士学位。他的研究兴趣主要是计算机视觉、自然语言处理和机器学习。目前,他正在研究视觉语言问题,主要是图像描述、视觉问答 (VQA) 以及视觉语言导航方面。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊上发表论文100余篇。他还是CVPR、ICCV和NeurIPS会议的领域主席。

王鹏

西北工业大学教授、博士生导师,教育部长江学者。2000-2011年在北京航空航天大学自动化科学与电气工程学院学习并获得学士和博士学位。博士毕业后在阿德莱德大学计算机学院从事科研工作,主要从事计算机视觉、自然语言处理和机器学习相关领域的研究。


王鑫

清华大学计算机系副研究员,国家优秀青年科学基金获得者。在浙江大学计算机科学与技术学院获得学士、博士学位,在加拿大西蒙弗雷泽大学获得计算科学博士学位。作为项目或课题负责人承担国家自然科学基金、科技部重点研发计划等项目,获ACM中国新星奖、IEEE TCMC新星奖、达摩院青橙奖、国家自然科学二等奖和教育部自然科学一等奖。主要研究方向为多媒体智能、媒体大数据和机器学习等,在IEEE TPAMI、ICML、NeurIPS、ACM Multimedia等相关领域国际期刊或会议上发表论文180余篇,三次获ACM Multimedia Asia等论文奖。

何晓冬IEEE/CAAI Fellow,京东集团副总裁、京东探索研究院院长、京东科技人工智能业务负责人,从事自然语言处理和语言与视觉多模态智能的研究二十余年,是该领域的世界级科学家,吴文俊人工智能杰出贡献奖获得者。他发表了200余篇论文,被引用5万余次,其代表作如HAN、BUTD等多篇论文均获5000次以上的引用,并多次获得ACL杰出论文奖、IEEE SPS论文奖等奖项。在京东,他领导团队聚焦人工智能技术的前沿突破及产品创新,打造了京东“言犀”AI平台及言犀大模型,在电商行业推出了言犀数字人多模态视频生成和AI直播等颠覆性创新应用,并在零售、金融、文旅、健康等产业进行了大规模技术赋能。他还在华盛顿大学(西雅图)等学校担任兼职教授。


朱文武

清华大学计算机系教授,博士生导师,现任清华大学北京信息科学与技术国家研究中心副主任,清华大学人工智能研究院大数据智能中心主任,大数据算法工程实验室副主任。国家973项目首席科学家,国家基金委重大项目负责人。主要从事多媒体智能、多媒体大数据等研究工作,曾10次获ACM及IEEE等国际论文奖,发表高水平国际论文400余篇,发明专利80余项。现担任IEEE Transactions on Circuits and Systems for Video Technology主编,曾任IEEE Transactions on Multimedia指导委员会主席、主编,IEEE Transactions on Mobile Computing、IEEE Transactions on Multimedia指导委员会成员,ACM Multimedia 2018和ACM CIKM 2019大会共同主席。欧洲科学院院士、ACM/IEEE/AAAS/SPIEFellow。荣获2012、2018、2023年度国家自然科学二等奖(排名第二、第一、第一),五次获省部级一等奖。


编辑推荐

适读人群 :本书既可以作为视觉问答领域关键模型的综述,也可作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。

华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE Fellow田奇,加拿大工程院外籍院士、智象未来创始人兼CEO梅涛 倾情作序!

涵盖视觉问答领域的基础理论、模型、数据集及未来方向。

系统介绍计算机视觉和自然语言处理的概念和方法。

通过多样化的应用程序和任务探索使用不同的模型解决现实世界的视觉问答问题。

囊括视觉问答的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解等。


下载地址

序言

视觉问答(Visual Question Answering,VQA)是结合了计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)的一项基本任务。视觉问答受到计算机视觉、自然语言处理和其他各种人工智能社区的广泛关注,作为计算机视觉和自然语言处理的桥梁,其任务目标是根据图像的视觉信息推理问题的正确答案。在最常见的视觉问答形式中,计算机接收图像和关于图像的文本问题,随后需确定正确答案,并以几个单词或短语的形式呈现。视觉问答还具备多种变体,包括二进制(是或否)、多项选择题设置和开放式问答等。

视觉问答与计算机视觉中其他任务的一个关键区别是,其要回答的问题直到运行时才能确定。在传统的分割或目标检测等任务中,一个算法要回答的问题是预先确定的,只有输入图像是变化的。相比之下,在视觉问答任务中,问题的形式和回答它所需的操作集是未知的。这项任务与图像理解的挑战相关联。特别是视觉问答与语篇问答任务相关,其中答案必须在特定的语篇叙事(阅读理解)或大型知识库(信息检索)中寻求。文本问答已经被自然语言处理界研究了很长时间,视觉问答代表了它对额外的视觉支持信息的扩展。值得注意的是,这种扩展伴随着一个重大的挑战,因为图像比纯文本具有更多的维度和更多的噪声。此外,图像缺乏语言的结构和语法规则,没有直接等价于句法解析器和正则表达式的自然语言处理工具。此外,图像更多地捕捉了现实世界的丰富性,而自然语言代表了更高层次的抽象。例如,“一顶红帽子”短语和它可以被描绘出来的众多表示形式,在这些表征中,许多风格是短句无法描述的。随着计算机视觉和自然语言处理技术的成熟,以及相关大规模数据集的出现,人们对视觉问答越来越感兴趣。因此,近五年出现了大量关于视觉问答的文献和开创性模型。本书的写作目的是提供一个对新兴领域的全面概述,涵盖基础理论、模型、数据集及未来方向。

本书既可以作为视觉问答领域关键模型的综述,也可以作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。希望读者通过阅读本书获得关于计算机视觉和自然语言处理领域中不同流行理论和模型的认知。此外,本书可以帮助学生(尤其是研究生)系统地理解计算机视觉和自然语言处理的概念和方法。通过一组多样化的应用程序和任务,探索使用不同的模型解决现实世界的视觉问答问题。读者只需要掌握基本的机器学习和深度学习知识即可理解这些主题。

本书共5 部分。第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。

吴琦

澳大利亚阿德莱德大学


目录

第1 章简介1

1.1 视觉问答的动机1

1.2 人工智能任务中的视觉问答4

1.3 视觉问答类别5

1.3.1 数据分类驱动6

1.3.2 任务分类驱动7

1.3.3 其他7

参考文献8

第1 部分基础理论

第2 章深度学习基础15

2.1 神经网络15

2.2 卷积神经网络17

2.3 循环神经网络及变体 8

2.4 编码器-解码器结构20

2.5 注意力机制20

2.6 记忆网络21

2.7 Transformer网络和BERT22

2.8 图神经网络24

参考文献25

第3 章问答基础知识27

3.1 基于规则的方法27

3.2 基于信息检索的方法28

3.3 问答的神经语义解析29

3.4 问答知识库29

参考文献30

第2 部分图像视觉问答

第4 章经典视觉问答35

4.1 简介35

4.2 数据集36

4.3 生成与分类:两种回答策略40

4.4 联合嵌入40

4.4.1 序列到序列编码器-解码器模型40

4.4.2 双线性编码模型43

4.5 注意力机制45

4.5.1 堆叠注意力网络45

4.5.2 分层问题-图像协同注意力47

4.5.3 自底向上和自顶向下的注意力49

4.6 记忆网络51

4.6.1 改进的动态记忆网络51

4.6.2 记忆增强网络52

4.7 组合推理54

4.7.1 神经模块网络55

4.7.2 动态神经模块网络56

4.8 图神经网络58

4.8.1 图卷积网络58

4.8.2 图注意力网络60

4.8.3 视觉问答图卷积网络62

4.8.4 视觉问答图注意力网络63

参考文献66

第5 章基于知识的视觉问答71

5.1 简介71

5.2 数据集72

5.3 知识库74

5.3.1 数据库百科74

5.3.2 ConceptNet74

5.4 知识嵌入75

5.4.1 文字对矢量表示法75

5.4.2 基于BERT的表征78

5.5 问题-查询转换79

5.5.1 基于查询映射的方法79

5.5.2 基于学习的方法81

5.6 查询知识库的方法82

5.6.1 RDF82

5.6.2 记忆网查询83

参考文献84

第6 章视觉问答的视觉和语言预训练88

6.1 简介88

6.2 常规预训练模型89

6.2.1 ELMo89

6.2.2 GPT89

6.2.3 MLM90

6.3 视觉和语言预训练的常用方法93

6.3.1 单流方法94

6.3.2 双流方法96

6.4 视觉问答及其下游任务微调98

参考文献101

第3 部分视频视觉问答

第7 章视频表征学习105

7.1 人工标注的局部视频描述符105

7.2 数据驱动的深度学习的视频特征表示107

7.3 视频表征的自监督学习109

参考文献110

第8 章视频问答112

8.1 简介112

8.2 数据集112

8.2.1 多步推理数据集113

8.2.2 单步推理数据集116

8.3 使用编码器-解码器结构的传统视频时空推理118

参考文献123

第9 章视频问答的高级模型126

9.1 时空特征注意力126

9.2 记忆网络129

9.3 时空图神经网络130

参考文献132

第4 部分视觉问答高级任务

第10 章具身视觉问答137

10.1 简介137

10.2 模拟器、数据集和评估标准138

10.2.1 模拟器138

10.2.2 数据集140

10.2.3 评估指标141

10.3 语言引导的视觉导航142

10.3.1 视觉和语言导航142

10.3.2 远程对象定位147

10.4 具身问答148

10.5 交互式问答150

参考文献151

第11 章医学视觉问答153

11.1 简介153

11.2 数据集154

11.3 医学视觉问答的经典方法156

11.4 医学视觉问答的元学习方法159

11.5 基于BERT的医学视觉问答方法160

参考文献162

第12 章基于文本的视觉问答165

12.1 简介165

12.2 数据集166

12.2.1 TextVQA166

12.2.2 ST-VQA167

12.2.3 OCR-VQA168

12.3 OCR 标记表示168

12.4 简单融合模型169

12.5 基于Transformer的模型170

12.6 图模型172

参考文献173

第13 章视觉问题生成176

13.1 简介176

13.2 数据融合中的视觉问题生成176

13.2.1 从答案生成问题177

13.2.2 从图像生成问题178

13.2.3 对抗学习179

13.3 作为视觉理解问题的视觉问题生成180

参考文献182

第14 章视觉对话185

14.1 简介185

14.2 数据集186

14.3 注意力机制187

14.3.1 具有注意力的分层循环编码器和记忆网络187

14.3.2 历史条件图像注意力编码器188

14.3.3 序列协同注意力生成模型190

14.3.4 协同网络192

14.4 视觉指代表达理解194

14.5 基于图的方法195

14.5.1 视觉表示的场景图196

14.5.2 用于视觉和对话表示的图卷积网络197

14.6 预训练模型199

14.6.1 VD-BERT200

14.6.2 Visual-Dialog BERT201

参考文献202

第15 章指代表达理解204

15.1 简介 204

15.2 数据集 205

15.3 二阶段模型206

15.3.1 联合嵌入206

15.3.2 协同注意力模型208

15.3.3 图模型209

15.4 一阶段模型211

15.5 推理过程理解212

参考文献213

第5 部分总结与展望

第16 章总结与展望219

16.1 总结219

16.2 展望219

16.2.1 视觉问答的可解释性219

16.2.2 消除偏见220

16.2.3 附加设置及应用221

参考文献221

短评